E-commerce — Анализ товарного ассортимента¶

Материалы:

ПРЕЗЕНТАЦИЯ: https://disk.yandex.ru/i/M7PlP1D7SecjPA

ОПИСАНИЕ ПРОЕКТА:

Интернет-магазин товаров для дома «Пока все ещё тут» в срочном порядке ищет аналитиков. Вы поможете нашему магазину стать лучше, а клиентам — обустроить дом своей мечты. Наши ближайшие задачи — анализ товарного ассортимента и создание гипотез на основе полученных данных. «Пока все ещё тут» — мы создаём уют!

ЦЕЛЬ: Анализ товарного ассортимента

ОПИСАНИЕ ДАННЫХ:

Датасет описывает транзакции интернет-магазина товаров для дома и быта «Пока все ещё тут».

Колонки в ecommerce_dataset.csv :

ДЕКОМПОЗИЦИЯ ПЛАН: 1 ИЗУЧИТЬ ДАННЫЕ Открыть файл с данными и изучить общую информацию. 2 ПРЕДОБРАБОТКА ДАННЫХ 2.1 Проверка на пропуски. 2.3 Преобразование типов данных. 2.4 Проверка на дубликаты явные/неявные. 2.5 Проверка на аномалии в данных. 2.6 Добавление необходимых для анализа столбцов. 2.7 Обработка, исследование столбца product 3 ИССЛЕДОВАТЕЛЬСКИЙ АНАЛИЗ ДАННЫХ. 3.1 Разбить товары на категории. 3.2 Анализ в разрезе категорий (выручка, средний чек, продажи по месяцам, сезонность) 3.3 Провести ABC анализ 3.4 Проанализировать какие товары приносят большую прибыль компании. Анализ продаж. 3.5 Выделить основной и дополнительный ассортимент. 3.6 Сформулировать и проверить статистические гипотезы. 3.6.1 Проверка гипотезы: Средний объем продаж в основном и дополнительном ассортименте одинаковый. 3.6.2 Проверка гипотезы:Средняя выручка в основном и дополнительном ассортименте одинаковая. 5 ОБЩИЙ ВЫВОД 6 ПРЕЗЕНТАЦИЯ

Изучение данных.

Откроем файл с данными и изучим общую информацию.

В таблице 6 столбцов, 7474 строк.

Типы данных: date int64 -целочисленный customer_id object -строки order_id int64 -целочисленный product object -строки quantity int64 -целочисленный price float64 - вещественный

Нужно заменить типы следующих столбцов:date-на дату. Пропусков в столбцах нет.

ПРЕДОБРАБОТКА ДАННЫХ

Проверим данные на явные/неявные дубликаты.

Приведем столбец product к нижнему регистру.

Удалим данные дубликаты, тк 'order_id' создается 1 уникальный для каждого заказа 'customer_id' в момент покупки. Дубликаты заказов созданы в разное время под одинаковым номером заказа.

Осталось в датасете 5610 строк. В магазине представлен 2341 товар. Самый популярный пеларгония. Данные взяты за период 2018-10-01 по 2020-01-31. В датасете представлен 2451 покупатель. Самый активный покупатель c971fb21-d54c-4134-938f-16b62ee86d3b. Больше всего покупок было 2019-04-27 (51 покупка). Нужно проверить в столбце количество-1000шт (подозрительно для розницы).

Удалим строку 5456, тк кол-во 1000шт-это аномалия для розничного магазина.

В основном в магазине цена товаров до 1000р, есть один товар со стоимостью 14917.0 руб. Посмотрим какая это позиция.

Цена соответствует реальности.

Добавим новые столбцы месяц, день, день недели, час.

Выделим в столбце 'product' 2 первых слова

ИССЛЕДОВАТЕЛЬСКИЙ АНАЛИЗ ДАННЫХ

Разбить товары на категории

Проверим все ли товары распределены по категориям.

🎓 Комментарий студента: Добавила проверку.
😔 Необходимо исправить: Нужно проверить, что всем товарам присвоены категории
👍 Успех: Все верно! Категории выделены!

Анализ в разрезе категорий (выручка, средний чек, продажи по месяцам, сезонность)

Посмотрим количество проданного товара по категория.

ПРОМЕЖУТОЧНЫЙ ВЫВОД:ТОП-3 количества проданного товара в следующих категориях- это растения 30,1%, интерьер 27,1% и хозтовары 26,2%.

Посмотрим распределение выручки по категориям. Для этого создадим столбец revenue

ПРОМЕЖУТОЧНЫЙ ВЫВОД:ТОП-3 категорий по выручке- это хозтовары 57,5%, растения 14,5% и интерьер 13,3%.

Посмотрим средний чек по категориям:

ПРОМЕЖУТОЧНЫЙ ВЫВОД:ТОП-3 категорий по среднему чеку- это хозтовары 1236р, текстиль 1057р и бытовая техника 915р.

Проанализируем продажи по месяцам.

ПРОМЕЖУТОЧНЫЙ ВЫВОД: В категории растения пик продаж приходится на апрель, май. Сезон посадок. Падение в августе. В категории текстиль пик продаж в январе. Минимальная выручка в августе, затем наблюдается небольшой рост до декабря. В категории хозтовары пик продаж приходится на октябрь, декабрь. В категории посуда наблюдается падение выручки с января по июнь, затем рост с пиком продаж в ноябре. В категории интерьер пик продаж в октябре.В остальные месяцы не стабильных продаж, в апреле, августе резкие падения продаж. В категории инструмент стабильно пизкая выручка, резкий пик с августа по октябрь. В категории гигиена выручка растет с июня по август, затем падает. В категории бытовая техника пик в январе, затем падение выручки до июля, с июля по ноябрь выручка немного растет.

Проанализируем продажи по дням неделям

ПРОМЕЖУТОЧНЫЙ ВЫВОД: В категории растения пик продаж приходится на понедельник, вторник. Падение в субботу. В категории текстиль пик продаж во вторник и пятницу, падение в субботу, воскресенье, понедельник. В категории хозтовары пик продаж приходится на вторник, понельник, минимальные продажи в субботу и воскресенье. В категории посуда наблюдается пик продаж в четверг, падение в субботу. В категории интерьер пик продаж во вторник, минимальные продажи в субботу. В категории инструмент стабильно пизкая выручка, резкий пик в четверг. В категории гигиена пик выручки в понедельник. В категории бытовая техника пик в понедельник, вторник.

Проанализируем продажи по часам.

ПРОМЕЖУТОЧНЫЙ ВЫВОД: В категории растения пик продаж приходится на 13:00, 15:00. В категории текстиль пик продаж в 13:00. В категории хозтовары пик продаж приходится на 11:00. В категории посуда наблюдается пик продаж в 17:00. В категории интерьер пик в 7:00, 14:00 и в 21:00. В категории инструмент в 14:00. В категории гигиена пик продаж в 16:00. В категории бытовая техника пик продаж в 19:00.

ABC анализ

Проанализируем какие товары приносят большую прибыль компании.

Поделим товары на группы ABC по продажам

Поделим товары на группы ABC по выручке

Соберем группы AA AB ВA BB BC CB CC AC CA

Товары с категорией АА это самые важные товары приносят значительный доход, часто покупаются, приносят выручку. А значит должны постоянно быть в наличии, с бесперебойными поставками и хорошим запасом.

AB

товары с высоким показателем по обороту и средним по выручке. Здесь важен постоянный мониторинг показателей. Для товаров в этой категории возможен пересмотр ценовой политики, так незначительное увеличение цены товаров приведет к увеличению выручки магазина.

AC

низкоприбыльный ассортимент с высоким оборотом. Важно не допускать снижения продаж по данной группе и следить за ценой у конкурентов.

BB

устойчивые середняки. По этой группе оставляйте все как есть.

BA

товары с высоким показателем по прибыли и средним по оборот. Здесь важен постоянный мониторинг показателей. Стоит найти ему лучшее место на сайте, или провести промоактивность и магазин получит значительную прибыль.

BC

низкоприбыльный ассортимент со средним уровнем оборачиваемости. Расскажите покупателям о преимуществах этого товара, чтобы повысить прибыльность.

CA

товары с высокой прибыльностью, но низким оборотом. Это могут быть эксклюзивные товары и новинки.

CB

товары с небольшим оборотом, но средней прибылью. Можно провести акцию, также изменить их место на сайте.

CC

товары аутсайдеры Они приносят минимум прибыли — их количество можно смело уменьшать или вовсе выводить из ассортимента

Выделим основной и дополнительный ассортимент. Товары, входящие в группы АА, AB, BA, BB являются основным ассортиментом. Товары, входящие в группы АС, СА, BС, СB являются дополнительным ассортиментом.

С помощью дополнительного ассортимента можно значительно увеличить средний чек. Эти товары приносят немного прибыли. Однако они расширяют ассортимент и обеспечивают небольшой, но стабильный доход.

В интеренет-магазине 67% товаров из основного ассортимента, 25,5% из дополнительного ассортимента, 7,45% товары из группы СС (желательно от них отказаться)

Рассмотрим распределение на основной и дополнительный ассортимент в разрезе категорий товаров.

Больше всего основного товара в категориях хозтовары. В группе гигиена больше дополнительного, чем основного товара.

Сформулировать и проверить статистические гипотезы.

Проверка гипотезы: Средний объем продаж одинаковый в основном и дополнительном ассортименте.

Есть основания опровергнуть гипотезу, что средний объем продаж в основном и дополнительном ассортименте одинаковый.

Проверка гипотезы: Средняя выручка в основном и дополнительном ассортименте одинаковая.

𝐻0 — Средняя выручка в основном и дополнительном ассортименте одинаковая.

𝐻1— Средняя выручка в основном и дополнительном ассортименте различается.

Есть основания опровергнуть гипотезу, что средняя выручка в основном и дополнительном ассортименте одинаковая.

Общий вывод

ПРЕДОБРАБОТКА ДАННЫХ

В таблице 6 столбцов, 7474 строк. Типы данных: date int64 -целочисленный customer_id object -строки order_id int64 -целочисленный product object -строки quantity int64 -целочисленный price float64 - вещественный Пропусков в столбцах нет.

Столбец date преобразован тип данных на дату. Проведена проверка на дубликаты явные/неявные. Проведена проверка на аномалии в данных. Добавлены необходимых для анализа столбцы month,day,day_week,hours.

После предобработки осталось в датасете 5609 строк.

ИССЛЕДОВАТЕЛЬСКИЙ АНАЛИЗ

Столбец product поделен на 7 категорий: бытовая техника, гигиена, инструмент, интерьер, посуда, растения, текстиль, хозтовары.

В магазине представлен 2341 товар. Самый популярный пеларгония. Данные взяты за период 2018-10-01 по 2020-01-31. В датасете представлен 2451 покупатель. Самый активный покупатель c971fb21-d54c-4134-938f-16b62ee86d3b. Больше всего покупок было 2019-04-27 (51 покупка).

Проведен анализ в разрезе категорий (объем продаж, выручка, средний чек, продажи по месяцам, дням недели, часам)

ТОП-3 категорий по количеству проданного товара: растения 30,1%, интерьер 27,1% и хозтовары 26,2%. ТОП-3 категорий по выручке- это хозтовары 57,5%, растения 14,5% и интерьер 13,3%. ТОП-3 категорий по среднему чеку- это хозтовары 1236р, текстиль 1057р и бытовая техника 915р.

Анализ продаж по месяцам:

В категории растения пик продаж приходится на апрель, май. Сезон посадок. Падение в августе. В категории текстиль пик продаж в январе. Минимальная выручка в августе, затем наблюдается небольшой рост до декабря. В категории хозтовары пик продаж приходится на октябрь, декабрь. В категории посуда наблюдается падение выручки с января по июнь, затем рост с пиком продаж в ноябре. В категории интерьер пик продаж в октябре.В остальные месяцы не стабильных продаж, в апреле, августе резкие падения продаж. В категории инструмент стабильно пизкая выручка, резкий пик с августа по октябрь. В категории гигиена выручка растет с июня по август, затем падает. В категории бытовая техника пик в январе, затем падение выручки до июля, с июля по ноябрь выручка немного растет.

Анализ продаж по дням недели:

В категории растения пик продаж приходится на понедельник, вторник. Падение в субботу. В категории текстиль пик продаж во вторник и пятницу, падение в субботу, воскресенье, понедельник. В категории хозтовары пик продаж приходится на вторник, понельник, минимальные продажи в субботу и воскресенье. В категории посуда наблюдается пик продаж в четверг, падение в субботу. В категории интерьер пик продаж во вторник, минимальные продажи в субботу. В категории инструмент стабильно пизкая выручка, резкий пик в четверг. В категории гигиена пик выручки в понедельник. В категории бытовая техника пик в понедельник, вторник.

Анализ продаж по часам:

В категории растения пик продаж приходится на 13:00, 15:00. В категории текстиль пик продаж в 13:00. В категории хозтовары пик продаж приходится на 11:00. В категории посуда наблюдается пик продаж в 17:00. В категории интерьер пик в 7:00, 14:00 и в 21:00. В категории инструмент в 14:00. В категории гигиена пик продаж в 16:00. В категории бытовая техника пик продаж в 19:00.

Проведен ABC анализ Выявлены товары, которые приносят большую выручку компании, больший объем продаж.

Рекомендации: АА это самые важные товары приносят значительный доход, часто покупаются, приносят выручку. А значит должны постоянно быть в наличии, с бесперебойными поставками и хорошим запасом.

AB товары с высоким показателем по обороту и средним по выручке. Здесь важен постоянный мониторинг показателей. Для товаров в этой категории возможен пересмотр ценовой политики, так незначительное увеличение цены товаров приведет к увеличению выручки магазина.

AC низкоприбыльный ассортимент с высоким оборотом. Важно не допускать снижения продаж по данной группе и следить за ценой у конкурентов.

BB устойчивые середняки. По этой группе оставляйте все как есть.

BA товары с высоким показателем по прибыли и средним по оборот. Здесь важен постоянный мониторинг показателей. Стоит найти ему лучшее место на сайте, или провести промоактивность и магазин получит значительную прибыль.

BC низкоприбыльный ассортимент со средним уровнем оборачиваемости. Расскажите покупателям о преимуществах этого товара, чтобы повысить прибыльность.

CA товары с высокой прибыльностью, но низким оборотом. Это могут быть эксклюзивные товары и новинки.

CB товары с небольшим оборотом, но средней прибылью. Можно провести акцию, также изменить их место на сайте.

CC товары аутсайдеры Они приносят минимум прибыли — их количество можно смело уменьшать или вовсе выводить из ассортимента

Выделен основной и дополнительный ассортимент. Товары, входящие в группы АА, AB, BA, BB являются основным ассортиментом. Товары, входящие в группы АС, СА, BС, СB являются дополнительным ассортиментом. С помощью дополнительного ассортимента можно значительно увеличить средний чек. Эти товары приносят немного прибыли. Однако они расширяют ассортимент и обеспечивают небольшой, но стабильный доход. В интеренет-магазине 67% товаров из основного ассортимента, 25,5% из дополнительного ассортимента, 7,45% товары из группы СС (желательно от них отказаться) Больше всего основного товара в категориях хозтовары. В группе гигиена больше дополнительного, чем основного товара.

ПО ПРОВЕРКЕ ГИПОТЕЗ Есть основания полагать, что средняя выручка и средний объем продаж в основном и дополнительном ассортименте различается.

ДАШБОРД: